Skip to main content

02. 随机变量及其概率分布的核心概念与应用

1. 随机变量与概率分布的基本概念

1.1. 随机变量 (Random Variable, r.v.)

  • 核心定义:随机变量是定义在样本空间上的一个实值函数,通常用大写字母 X,Y,ZX, Y, Z 表示。它的本质是将随机试验的每一个可能结果(样本点)映射到一个具体的数值。
  • 作用:将复杂的、非数值的随机事件问题,转化为对数值函数的分析,从而可以使用微积分等数学工具进行研究。

1.2. 随机变量的分类

根据随机变量可能取值的特征,可以分为两类:

  • 离散型随机变量 (Discrete random variable):其全部可能取值是有限个或可列无限多个。
    • 用例:一天内某餐厅的顾客数量、抛硬币 10 次出现正面的次数。
  • 连续型随机变量 (Continuous random variable):其全部可能取值可以充满一个或多个区间,是不可数的。
    • 用例:一辆公交车的等待时间、一个电子元件的寿命。

1.3. 概率分布 (Probability Distribution) 的描述

概率分布描述了随机变量取所有可能值的概率规律。不同类型的随机变量有不同的描述工具。

描述工具适用类型定义核心性质
概率质量函数 (PMF)
Probability Mass Function
离散型p(xi)=P(X=xi)p(x_i) = P(X=x_i)1. 非负性p(xi)0p(x_i) \ge 0
2. 规范性ip(xi)=1\sum_i p(x_i) = 1
概率密度函数 (PDF)
Probability Density Function
连续型P(aXb)=abf(x)dxP(a \le X \le b) = \int_a^b f(x)dx1. 非负性f(x)0f(x) \ge 0
2. 规范性f(x)dx=1\int_{-\infty}^{\infty} f(x)dx = 1
累积分布函数 (CDF)
Cumulative Distribution Function
通用F(x)=P(Xx)F(x) = P(X \le x)1. 非减函数
2. limxF(x)=0\lim_{x \to -\infty} F(x) = 0, limxF(x)=1\lim_{x \to \infty} F(x) = 1
3. 右连续

重点辨析:PDF 的含义

对于连续型随机变量 XX 及其概率密度函数 f(x)f(x)

  • f(x)f (x) 本身不是概率! 事实上,对于任意一点 x0x_0,有 P(X=x0)=x0x0f(x)dx=0P(X=x_0) = \int_{x_0}^{x_0} f(x)dx = 0
  • f(x)f(x) 的值反映了概率在点 xx 附近的“密集程度”或“浓度”f(x)f(x) 的值越大,意味着 XX 取值在 xx 附近的概率越高。
  • 用例:假设 XX 代表某城市成年男性的身高(单位:米),其 PDF 为 f(x)f(x)。如果 f(1.75)>f(1.90)f(1.75) > f(1.90),这并不意味着身高恰好为 1.75 米的概率大于 1.90 米的概率(两者都为 0),而是意味着身高在 1.75 米附近一个很小区间内(如 [1.749,1.751][1.749, 1.751])的概率,要大于身高在 1.90 米附近一个同样大小区间内(如 [1.899,1.901][1.899, 1.901])的概率。

CDF 的重要应用 对于任意随机变量 XX,其 CDF 为 F(x)F(x),则计算区间概率的核心公式为:

P(a < Xb) = F(b) - F(a)\underline{\textbf{P(a < X} \le \textbf{b) = F(b) - F(a)}}

对于连续型随机变量,由于单点概率为 0,所以 P(a<Xb)=P(aXb)=P(a<X<b)=P(aX<b)P(a < X \le b) = P(a \le X \le b) = P(a < X < b) = P(a \le X < b)


2. 随机变量的数字特征

数字特征是用少数几个数字来概括概率分布的某些关键方面。

2.1. 数学期望 (Mathematical Expectation)

  • 定义:也称为均值 (Mean) 或期望值 (Expected Value),记为 E(X)E(X)。它代表了随机变量取值的“加权平均值”或“长期平均水平”。
    • 离散型E(X)=ixip(xi)E(X) = \sum_i x_i p(x_i)
    • 连续型E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty} x f(x) dx
  • 函数期望:对于 Y=g(X)Y=g(X),其期望为:
    • 离散型E[g(X)]=ig(xi)p(xi)E[g(X)] = \sum_i g(x_i) p(x_i)
    • 连续型E[g(X)]=g(x)f(x)dxE[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) dx

2.2. 方差 (Variance) 与标准差 (Standard Deviation)

  • 定义:方差描述了随机变量取值相对于其期望值的离散程度或波动性,记为 Var(X)Var(X)D(X)D(X) Var(X)=E[(XE(X))2]Var(X) = E[(X - E(X))^2]
    • 离散型Var(X)=i(xiE(X))2p(xi)Var(X) = \sum_i (x_i - E(X))^2 p(x_i)
    • 连续型Var(X)=(xE(X))2f(x)dxVar(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) dx
  • 标准差 (Standard Deviation, SD)SD(X)=Var(X)SD(X) = \sqrt{Var(X)},量纲与随机变量本身相同,更具解释性。

2.3. 重要性质与计算公式 (常考)

  1. 期望的线性性质:对于常数 a,ba, b,有 E(aX+b)=aE(X)+bE(aX + b) = aE(X) + b
  2. 方差的性质:对于常数 a,ba, b,有 Var(aX+b)=a2Var(X)Var(aX + b) = a^2 Var(X) 注意:常数 bb 不影响离散程度,因此被消除;系数 aa 被平方。
  3. 方差的常用计算公式:这是一个极其重要的公式,能极大简化计算。 Var(X) = E(X2) - [E(X)]2\textbf{Var(X) = E(X}^2\textbf{) - [E(X)]}^2 它将计算方差的问题,转化为了计算 XX 的期望和 X2X^2 的期望。

3. 常见的离散型分布

分布名称 (Notation)背景描述概率质量函数 (PMF)期望 E(X)E(X)方差 Var(X)Var(X)
伯努利分布
Bernoulli (pp)
单次试验,只有“成功”(1) 和“失败”(0) 两种结果,成功概率为 ppP(X=x)=px(1p)1xP(X=x) = p^x(1-p)^{1-x},
x=0,1x=0, 1
ppp(1p)p(1-p)
二项分布
Binomial (n,pn, p)
nn 重独立的伯努利试验中,“成功”事件发生的总次数P(X=x)=Cnxpx(1p)nxP(X=x) = C_n^x p^x(1-p)^{n-x},
x=0,1,,nx=0, 1, \dots, n
npnpnp(1p)np(1-p)
几何分布
Geometric (pp)
在一系列独立伯努利试验中,首次“成功”时所需要的试验次数P(X=x)=(1p)x1pP(X=x) = (1-p)^{x-1}p,
x=1,2,x=1, 2, \dots
1p\frac{1}{p}1pp2\frac{1-p}{p^2}
泊松分布
Poisson (λ\lambda)
单位时间/空间内,某独立随机事件发生的次数λ\lambda 为平均发生率 (强度)。P(X=x)=λxeλx!P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!},
x=0,1,2,x=0, 1, 2, \dots
λ\lambdaλ\lambda

重点辨析与应用

  • 几何分布的无记忆性 (Memoryless Property)

    • 定义:对于 XGeometric(p)X \sim \text{Geometric}(p),有 P(X>m+nX>m)=P(X>n)P(X > m+n \mid X > m) = P(X > n)
    • 解释:已知一个事件已经失败了 mm 次,那么它在未来还要再失败 nn 次的概率,与从一开始就需要失败 nn 次的概率是完全一样的。简言之,“过去的失败不影响未来的概率”。
    • 用例:赌徒谬误 (Gambler's Fallacy) 一个赌徒在玩大小游戏,连续开了 10 把“小”。他认为“小”已经出现太多次了,下一把开“大”的概率会非常高。这是错误的。如果每次开大小都是独立的随机事件(符合几何分布/伯努利试验的前提),那么无论之前开过多少次“小”,下一次开“大”的概率仍然是 pp(通常是接近 0.5),不会改变。
  • 泊松定理:二项分布的泊松近似 (常考)

    • 结论:当二项分布 B(n,p)B(n, p) 中,nn 很大pp 很小时,其概率可以由泊松分布 P(λ)P(\lambda) 近似计算,其中 λ=np\boldsymbol{\lambda = np}
    • 经验法则:通常当 n>100n > 100p<0.05p < 0.05 时,近似效果很好。
    • 用例:某保险公司有 2500 名客户,每位客户在一年内死亡的概率为 0.002。计算该公司一年内赔付不超过 5 次的概率。
      • 这里 n=2500n=2500 (很大),p=0.002p=0.002 (很小)。
      • 精确计算是二项分布,非常复杂。
      • 可以使用泊松近似,令 λ=np=2500×0.002=5\lambda = np = 2500 \times 0.002 = 5。设死亡人数为 XX,则 XPoisson(5)X \approx \text{Poisson}(5)
      • P(X5)=k=055ke5k!P(X \le 5) = \sum_{k=0}^5 \frac{5^k e^{-5}}{k!},计算大为简化。

4. 常见的连续型分布

分布名称 (Notation)背景描述概率密度函数 (PDF)期望 E(X)E(X)方差 Var(X)Var(X)
均匀分布
Uniform (a,ba, b)
在区间 [a,b][a, b] 内取值,且取任意子区间的概率只与该子区间长度有关(等可能性)。f(x)=1baf(x) = \frac{1}{b-a}, a<x<ba < x < ba+b2\frac{a+b}{2}(ba)212\frac{(b-a)^2}{12}
指数分布
Exponential (λ\lambda)
独立随机事件两次发生之间时间间隔λ\lambda 为单位时间内的平均发生率。f(x)=λeλxf(x) = \lambda e^{-\lambda x}, x0x \ge 01λ\frac{1}{\lambda}1λ2\frac{1}{\lambda^2}
正态分布
Normal (μ,σ2\mu, \sigma^2)
又称高斯分布,自然界和工程中大量现象的理想模型(如误差、身高、测量值)。μ\mu 是中心位置,σ\sigma 是离散程度。f(x)=12πσe(xμ)22σ2f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}μ\muσ2\sigma^2

重点辨析与应用

  • 指数分布与泊松分布的关系

    • 如果单位时间内事件发生的次数服从泊松分布 P(λ)P(\lambda),那么事件发生的时间间隔就服从指数分布 Exp(λ)\text{Exp}(\lambda)
    • 期望的直观理解:若平均每小时有 λ=5\lambda=5 个顾客到达(泊松),那么平均每位顾客的到达时间间隔就是 1/λ=1/51/\lambda = 1/5 小时(指数)。
  • 指数分布的无记忆性 (Memoryless Property)

    • 定义:对于 XExp(λ)X \sim \text{Exp}(\lambda),有 P(X>s+tX>s)=P(X>t)P(X > s+t \mid X > s) = P(X > t)
    • 解释:一个元件已经正常工作了 ss 小时,它还能继续工作至少 tt 小时的概率,和一个全新的元件能工作至少 tt 小时的概率是相同的。简言之,“寿命不受已使用时间的影响”。
    • 用例:“500 年一遇”的暴雨 新闻报道某地发生了“500 年一遇”的暴雨。这是否意味着从现在开始,500 年内不会再发生同等级别的暴雨?
      • 错误。如果这类事件的发生间隔可以近似看作服从指数分布,那么根据无记忆性,无论上次暴雨发生在昨天还是 100 年前,下一次发生这种暴- 雨的概率模式是完全一样的。“500 年一遇”仅表示其年发生率的倒数是 500,即年发生概率为 1/5001/500
  • 正态分布的核心工具:标准化 (Standardization)

    • 目的:任何一个普通正态分布 XN(μ,σ2)X \sim N(\mu, \sigma^2) 都可以通过线性变换,转化为标准正态分布 ZN(0,1)Z \sim N(0, 1)。标准正态分布的 CDF,记为 Φ(z)\Phi(z),有现成的表格可查。
    • 核心公式 Z = X - μσ\textbf{Z = } \frac{\textbf{X - } \mu}{\sigma}
    • 概率计算P(Xx)=P(Xμσxμσ)=P(Zxμσ)=Φ(xμσ)P(X \le x) = P(\frac{X - \mu}{\sigma} \le \frac{x - \mu}{\sigma}) = P(Z \le \frac{x - \mu}{\sigma}) = \Phi(\frac{x - \mu}{\sigma})
    • 对称性Φ(z)=1Φ(z)\Phi(-z) = 1 - \Phi(z)

5. 随机变量的函数变换

研究已知随机变量 XX 的分布,如何求其函数 Y=g(X)Y=g(X) 的分布。

5.1. 离散型情况

直接根据 YY 的取值,合并 XX 对应取值的概率即可。

P(Y=y)=x:g(x)=yP(X=x)P(Y=y) = \sum_{x: g(x)=y} P(X=x)

5.2. 连续型情况 (常考)

5.2.1. CDF 法 (通用方法)

这是最基本、最通用的方法,尤其在 g(x)g(x) 非单调时必须使用。

  1. 写出 YY 的累积分布函数定义:FY(y)=P(Yy)F_Y(y) = P(Y \le y)
  2. Y=g(X)Y=g(X) 代入:FY(y)=P(g(X)y)F_Y(y) = P(g(X) \le y)
  3. 根据 g(x)g(x) 的性质,将不等式 g(X)yg(X) \le y 转化为关于 XX 的不等式。
  4. 利用 XX 的 CDF FX(x)F_X(x) 或 PDF fX(x)f_X(x) 计算出该概率,得到 FY(y)F_Y(y) 的表达式。
  5. 求导得到 YY 的概率密度函数:fY(y)=dFY(y)dyf_Y(y) = \frac{dF_Y(y)}{dy}
  • 用例:设 XN(0,1)X \sim N(0, 1),求 Y=X2Y = X^2 的分布。
    1. FY(y)=P(Yy)=P(X2y)F_Y(y) = P(Y \le y) = P(X^2 \le y),对于 y0y \ge 0
    2. P(X2y)=P(yXy)P(X^2 \le y) = P(-\sqrt{y} \le X \le \sqrt{y})
    3. =FX(y)FX(y)=Φ(y)Φ(y)=2Φ(y)1= F_X(\sqrt{y}) - F_X(-\sqrt{y}) = \Phi(\sqrt{y}) - \Phi(-\sqrt{y}) = 2\Phi(\sqrt{y}) - 1
    4. fY(y)=ddy(2Φ(y)1)=2ϕ(y)12y=1yϕ(y)f_Y(y) = \frac{d}{dy}(2\Phi(\sqrt{y}) - 1) = 2 \cdot \phi(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{y}} \phi(\sqrt{y}) 代入 ϕ(z)=12πez2/2\phi(z) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2},可得 fY(y)=12πyey/2f_Y(y) = \frac{1}{\sqrt{2\pi y}} e^{-y/2} (对于 y>0y>0)。这是自由度为 1 的卡方分布。

5.2.2. 公式法 (仅限严格单调函数)

如果 y=g(x)y=g(x)严格单调函数,其反函数为 x=h(y)x=h(y),且 h(y)h(y) 可导。

fY(y)=fX(h(y))h(y)f_Y(y) = f_X(h(y)) \cdot |h'(y)|

注意:一定要乘以导数的绝对值 h(y)|h'(y)|

5.3. 琴生不等式 (Jensen's Inequality)

这是一个关于期望和函数变换的重要不等式。

  • 如果 g(x)g(x) 是一个凸函数 (Convex Function),则 E[g(X)]g(E[X])E[g(X)] \ge g(E[X])
  • 如果 g(x)g(x) 是一个凹函数 (Concave Function),则 E[g(X)]g(E[X])E[g(X)] \le g(E[X])
  • 重要推论:因为 g(x)=x2g(x)=x^2 是凸函数,所以 E[X2](E[X])2E[X^2] \ge (E[X])^2。这与方差公式 Var(X)=E[X2](E[X])20Var(X) = E[X^2] - (E[X])^2 \ge 0 相吻合。